這個章節就來介紹三種訓練與執行的架構,闡述其差異性與優缺點
主要分三種,去中心化、中心化、中心化訓練與去中心化執行
Fully decentralized
跟原本的single agent差不多,主要是在執行的時候,其他agent也會參與環境的運行,因為多了許多看不見的黑手(?) 所以執行起來,效果會很差
Fully centralized
中心化訓練與中心化執行,policy跟critic都會在一個後端進行訓練,在類型神經網路的整個流程會有兩個階段,訓練與部署執行,這兩個都會在一個指揮中心執行。優點顯而易見,很穩定,但缺點是速度慢,如果是同步的進行,假如有一個執行端接受訊息與傳遞很慢,就會拖累整個多智能體運行的效率。
Centralized training with decentralized execution
中心化訓練,但執行下放給底下的單位。這可能比較接近大部分人認知的多智能系統,那有一個跟去中心化具體的差異是,critic在中心化訓練的時候,它接收的資訊是全局的,也就是所有智能體的觀察與動作,有這麼充分的資訊作為提供,critic也是比較穩定。那執行的話就由各單位自己決定,而不是用中央去下指導棋,所以反應速度也快,不過policy跟中心化一樣,是只觀察到各自的訊息。
這個章節解釋了下多智能體的訓練上的差異,這反映了集體演算法本身的穩定與靈活性,一般很多方法僅在第一種,但很多情境,agents彼此間會互相干涉與影響,所以能察覺其他agents的行為,與全局資訊,不定因素相對會降低許多。